研究分享丨人工计算模型与机器学习模型的情感捕捉效度比较研究——以旅游评论数据为例
作者简介
刘逸:中山大学旅游学院旅游管理与规划系系主任、副教授、博士生导师,博士,研究方向为旅游地理、旅游大数据、情感挖掘;
孟令坤:中山大学旅游学院硕士研究生;
保继刚:中山大学旅游学院教授、博士生导师,博士,联合国世界旅游组织旅游可持续发展管理与监测中心主任,研究方向为旅游地理、旅游规划、旅游可持续发展;
赵创钿:深圳市腾讯计算机系统有限公司数据分析师、硕士。
研究缘起
在当前信息化时代的新生活环境中,我们每天都可以在网络上看到许多人积极地分享着自己购买商品、参加活动、外出旅游的经历和感受,B站、抖音、小红书等自媒体平台更是集合了多样而海量的自我分享内容,形式包括文字评论、照片、视频、评分等,在研究中我们将这类数据统称为“用户生产数据(UGC, User Generated Content)”,它们较为真实的反映了个体真实的情感态度,为探索、解析复杂多变的消费者行为和社会经济现象提供了新的内容和路径。
早在十余年前,管理信息系统领域已经开始研究这类UGC的有用性和信度,并用于各种理论校验和分析预测中(张紫琼等,2010;李实等,2009;李实等,2010;郝媛媛等,2009),其中,在线评论与商品销售联系紧密,是当前的研究热门之一,而将评论所蕴含的情感准确地划分为积极、消极、中性对判断消费者的观点来说极其重要,因此选择合适的文本情感分类方法成为研究的关键,直接影响着研究结论的准确性。
文本情感分类目前有两个技术开发方向:基于统计或神经网络的机器学习模型和基于自然语言逻辑、需要人工设定语义规则的人工计算模型。十多年前,管理科学领域的研究者就发现利用语言规则来编制分析算法,可以获得较高的精度,但是需要大量手工工作,难以解决复杂的语义表达识别问题(张紫琼等,2010);而整合统计学、概率论等多学科知识的机器学习算法,从投入成本和工作效率上看占绝对优势,一方面它只需要提供简单的标签数据进行训练,省去了建模的逻辑推演,以及复杂数据结构的清洗,可以快速得到计算结果;另一方面,随着学习语料的增加,这些模型的准确度可以不断提高,理论上可以接近极限。
因为机器学习算法的显著优势,如今它已成为解读海量、多源、异构数据的重要利器,成为研究的热潮(Ma et al., 2018),研究者们都倾向于使用机器学习的方法来识别产品特征所触发的消费者情感(李实等,2010)。在市场营销、接待业管理、信息管理等管理学领域(Ma et al., 2018;钱明辉&徐志轩,2019;Goes et al.;2014)和地理科学、社会学和城市规划等其他领域(江斯琦&刘强,2020;何宛余等,2019)都得到了积极的应用。
在学界积极拥抱机器学习这一新方法时,有些问题却难以回避,传统研究多从假设规律开始,到收集数据和开展实证研究,而机器学习法几乎不做任何预设,完全由计算机来判别规律是否存在,然后再进行总结归纳。从范式的角度来看,这个演变过程是革命性和颠覆性的。但是机器学习算法存在算法逻辑的“黑箱效应”,即在得到结果之后,无法归因和推演所研究对象的机制,只能通过测试结果选择是否相信模型。我们是否应该把对海量数据的趋势捕捉这一问题交给机器学习模型,而放弃对其数据分析逻辑进行探究?除此之外,机器学习方法的分类效果强烈依赖于训练语料,如果更换研究主题,只能提供新的语料进行训练,而更为复杂的深度学习需要很高的标注代价,模型稳定性极易受到干扰,存在自身的局限性。机器学习模型究竟能否全面取代人工计算模型?近年来开始有学者尝试回归传统的人工方法,刘逸等(2017)从旅游活动的内容和游客表达的特征出发,基于专属词库、语法逻辑和情感乘数,提出了评估旅游评论正负面情感的方法——TSE模型,并且初步证实其有效性,为机器学习法提出了新的挑战和应用场景,但两者在情感计算的准确度上孰优孰劣尚未可知。为了回答上述问题,我们开展了一次“人机对战”,对两种情感分类方法,即基于人工计算模型与机器学习模型的情感捕捉效度展开比较研究。
研究设计
我们选择了在线旅游网站上的旅游目的地景点评论,这些评论不直接面向景区等营利性主体,受商业利益驱动去控评的现象较少,较为朴实,噪音较小,真实性较高。同时旅游评论数据获取难度较低,完整性高,也与本研究选取的人工算法,即TSE模型的开发环境相匹配。
研究过程的总体设计思路是:先训练构建传统机器学习和深度学习模型,然后加入人工计算模型,对同一组校验数据分别进行情感分类,将与校验数据的相似性作为衡量模型情感评价效果的标准,由此判断三类模型的情感分类准确率。
基于全面和不重复的原则,本研究在传统机器学习模型中选择了四个经典且主流的分类模型:朴素贝叶斯、逻辑回归模型(Softmax)、随机森林和梯度提升决策树(Gradient Boost Decision Tree, GBDT),基本涵盖了传统机器学习的核心类别。在深度学习方面,监督式深度学习模型中的TextCNN(基于卷积神经网络的文本分类算法)和TextRNN(基于循环神经网络的文本分类算法)两个主流经典模型被选入。人工计算模型即TSE模型,我们在原模型基础上,结合采集的实验数据,对其进行了两个修正:(1)更新旅游情感专属词库,(2)新增程度副词5个。
同时准备三套数据:(1)训练机器学习6个模型所需的语料,简称“训练语料”;(2)用于给7个模型进行情感评价的旅游目的评论数据,简称“实验数据”;(3)用于校验7个模型评价准确度的问卷调查数据和人工判读数据,分别简称为“问卷校验数据”和“人工校验数据”。
我们利用均方根误差(RMSE,Root Mean Square Error)计算7个模型的实验数据和校验数据之间的相似性,进行两次校验,最终得到如下图的对比结果。
总体来说,第一,机器学习算法已经可以实现较高的捕捉精度,但整体并未能对人工计算模型形成压倒性优势。在旅游评论的实验场景下,尽管机器学习类模型Softmax表现较突出,位居第一,但是基于人工计算的TSE模型表现相对良好,准确率与TextCNN模型和随机森林模型一同位居第二,而且在稳定性上有明显优势。第二,人工计算模型是兼顾效率和稳定性的优质方法。在所有的比较中,TSE模型排名第二,而且稳定性最佳,而深度学习算法在以旅游评论为代表的数据分析场景下的准确度仍然具有一定的不确定性。
机器学习热潮的冷思考:理论和实践意义
本次研究所做的尝试,是对文本情感分类难题的积极突破,也是对机器学习热潮的一次冷思考。研究的核心问题在于判断对于人工计算规则而言,机器学习算法在海量数据的情感捕获中,是否具有压倒性优势。在理论价值上,首先我们肯定了人工计算模型在管理信息系统领域具有鲜明的科学价值,同时也肯定了传统的机器学习算法对于商业评论情感捕捉方面的优势。此项研究直接推动了十余年来管理信息系统领域中关于情感捕捉技术的研究进程,证实通过编制中文语义规则来捕捉消费者情感分析是切实可行的。虽然中文语法博大精深,但是TSE模型的尝试,证实了编制语义规则来捕捉消费者情感分析是切实可行的,与机器学习算法相比并不逊色,也间接地证明了人工计算方法的优势,研究者可以根据研究需求,灵活调整算法,例如可以快速改造现有的TSE模型,构建基于食品、日用品、汽车等其它消费商品的情感捕捉模型;也可以进一步构建旅游六要素——吃住行游购娱——的子模型。其核心工作量仅在于重新建立词库,而无需更改语义规则和情感程度副词规则。而如果采用机器学习模型,则需要重新进行语料训练、校验等步骤,才能获得分析模型。第二,本研究的结果呼应了机器学习领域的“奥卡姆剃刀定律”,以及Wolpert和Macready(1997)提出的“没有免费的午餐(No Free Lunch)”定理,认为对于评论文本这类较为直白的文本,可能并不需要使用深度学习这类复杂的机器学习算法。基于语义逻辑和情感词库的人工算法与经典机器学习算法相结合,可以为我们提供高效的解决方案。最后,多方法交叉检验的使用为文本情感捕捉效度校验提供了一次富有价值的尝试。
本研究的启示在于提醒研究者不应过分地推崇新技术与智能化,而应该以更具批判性的眼光进行审视各自的利弊。未来在文本分析与情感挖掘研究领域,应该重视人工计算模型与机器学习模型的结合使用,而非将两者对立取其一,从而在完成研究的同时发现规律,有助于管理信息领域的理论创新。
原文引用
刘逸,孟令坤,保继刚,赵创钿.人工计算模型与机器学习模型的情感捕捉效度比较研究——以旅游评论数据为例[J].南开管理评论,2021,24(5),63-72.
相关阅读
研究分享丨企业社会责任行为对品牌情感的作用研究:情感本土化的视角
研究分享 | 口碑效价因人而异?调节定向与社会距离对消费者口碑效价的影响
研究分享丨如何让员工“爱司所爱,行司所行”?基于社会信息处理理论的绿色人力资源管理与员工绿色行为关系研究
研究分享 | “好人不做坏事”抑或“好人也做坏事”?——组织关爱对模糊性偏差行为的双面效应研究
研究分享丨控制权转移与“卖方”老股东治理:谁阻碍了管理层留任?
研究分享 | 公司风险投资的分散与过度投资行为——基于行业间相互投资网络的绩效评估
编辑丨李萱
审核丨徐芳超